#inferencia de llm

Prism: inferencia multi-LLM eficiente con ballooning de memoria GPU

Descubre cómo Prism reduce costos en inferencia de múltiples LLMs mediante ballooning de memoria GPU, optimizando recursos sin sacrificar SLO. ¡Más eficiencia!

2026-06-12 · 2 min

VIA-SD: Verificación jerárquica con enrutamiento intra-modelo

Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.

2026-06-11 · 2 min

SpenseGPT: poda de una sola pasada para inferencia de LLM

Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.

2026-06-10 · 2 min

Fusión de operadores para inferencia de LLM en arquitectura Tensix

Descubre cómo la fusión de operadores en la arquitectura Tensix reduce hasta un 37% la latencia en atención de LLM, manteniendo precisión superior al 98% en inferencia local.

2026-06-10 · 2 min

ReD: mejora la inferencia de LLMs con presupuesto fijo

Descubre cómo ReD (Reset and Discard) mejora la inferencia de LLMs a presupuesto fijo, aumentando la cobertura de respuestas correctas y reduciendo costos en tokens y USD.

2026-06-09 · 2 min

Recover-LoRA: Recuperando precisión en cuantización agresiva de 2 bits

Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.

2026-06-04 · 2 min

SSSD: Decodificación Especulativa Simple y Escalable

Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.

2026-06-04 · 2 min

Mi GPU dejó de comer aire: backend en C++ para LLM

Descubre cómo optimizar la inferencia de LLM eliminando el padding con un backend en C++ y sequence packing. Mejora el rendimiento de tu GPU.

2026-06-03 · 2 min

KnapSpec: Decodificación Especulativa con Selección Adaptativa de Capas

KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.

2026-06-03 · 2 min

Fast-dLLM++: Perfil Fréchet para Inferencia más Rápida de LLM Difusión

Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.

2026-06-03 · 2 min

ViBE: Co-optimizando desviación de carga y variabilidad de hardware para MoE

ViBE reduce el desequilibrio en la ejecución de MoE hasta un 45% en P90 TTFT, mejorando el cumplimiento de SLO en un 14%. Optimiza colocación de expertos según rendimiento GPU.

2026-06-02 · 3 min